Inleiding Statistiek
Bennett Kleinberg
Week 2
Week 2
- Centraliteit van data (central tendency)
- Spreiding (variabiliteit) van data
Denk terug aan sampling
![]()
Sampling
- steekproeftrekking is het proces waarbij \(n\) waarnemingen worden genomen uit een populatie van grootte \(N\)
- dit is een van de belangrijkste methoden in de gedrags- en sociale wetenschappen
- als de steekproeftrekking fout is, is de rest BS
- GIGO-principe (garbage in, garbage out)
- meer in week 4
- voor nu: steekproef = deelverzameling van de populatie
Deel 1: Centrale tendens
- Doel: wij willen de gegevens beschrijven
- specifiek: we willen het centrum van de dataverdeling uitdrukken
- onthoud: denk aan data = verdeling
Voorbeeld data
- We nemen een steekproef van \(n=100\) van studenten aan TiU
- En vragen: hoeveel uur per week besteed je aan YouTube?
- Antwoorden in hele uren
Het histogram

Beschrijvende centrale waardes
De MODUS (Engels: mode):
- eenvoudige definitie: de score (of categorie) met de hoogste frequentie
- werkt voor alle schalen van data (denk aan nominale gegevens)
De modus bepalen
We kijken naar de frequentietabel, en kiezen de meest gekozen optie:
| 10 |
17 |
| 12 |
16 |
| 11 |
15 |
| 8 |
12 |
| 9 |
9 |
De modus is “10 uur”.
De locatie van de modus

Modus en distributies
(demo)
Beschrijvende centrale waardes
Het GEMIDDELDE (Engels: mean):
- exacte definitie: de som van alle scores gedeeld door het aantal scores
Statistische notatie:
\(\mu=\frac{\sum{X}}{N}\) (population mean)
\(M=\frac{\sum{X}}{n}\) (sample mean)
Het gemiddelde berekenen
- Steekproefgrootte: \(n=5\)
- Uren YouTube gekeken: \(5,7,9,14,6\)
\(\sum{X} = 5+7+9+14+6 = 41\)
\(M=\frac{\sum{X}}{n} = \frac{41}{5} = 8.20\)
Waar is het in de verdeling?

Modus en gemiddelde

Waarom niet altijd het gemiddelde?
Stel dat er 10 vrienden (a, b, c, … j) in een bar zitten. Elk van hen zegt hoeveel uur ze de afgelopen week op YouTube hebben doorgebracht.
Hier zijn de data:
| a |
15 |
| b |
6 |
| c |
2 |
| d |
2 |
| e |
4 |
| f |
12 |
| g |
6 |
| h |
15 |
| i |
3 |
| j |
7 |
…
Nu komt er een andere persoon binnen. Deze vriend, “k”, is een binge watcher. Hij zegt dat hij vorige week 50 uur YouTube heeft gekeken.
Wat denk je dat er met het gemiddelde zal gebeuren?
New histogram

Let op outliers
NL: uitschieters
- Gemiddelde voor: \(M=\frac{\sum{X}}{n} = \frac{72}{10} = 7.20\)
- Gemiddelde met de binge-watcher: \(M=\frac{\sum{X}}{n} = \frac{122}{11} = 11.09\)
Extreme waarden kunnen het gemiddelde beïnvloeden!
De extreme waarden worden vaak uitschieters genoemd.
Een andere illustratie
Er zitten honderd mensen in een bar. Het gemiddelde inkomen is 30.000 euro. Nu komt Jeff Bezos binnen en plots is iedereen miljardair.
Deze problemen kunnen worden aangepakt:
- mean trimming (niet in deze cursus)
- een andere maat
Beschrijvende centrale waardes
De MEDIAAN (Engels: median):
- vaak het midden genoemd
- exacte definitie: de mediaan deelt de verdeling in tweeën
Voorbeeld
De vrienden data:
| a |
15 |
| b |
6 |
| c |
2 |
| d |
2 |
| e |
4 |
| f |
12 |
| g |
6 |
| h |
15 |
| i |
3 |
| j |
7 |
| k |
50 |
Speciale gevallen
Verdelingen zonder “duidelijk” middenpunt:
- data: \(4,15,13,14,38,3\)
- gesorteerde data: \(3,4,13,14,15,38\)
- mediaan?
In dit geval nemen we de twee middelste waarden en berekenen het gemiddelde daarvan:
- median = \(\frac{13+14}{2}=13.5\)
Deel 2: Variabiliteit
- Doel: wij willen de data beschrijven
- specifiek: we willen uitdrukken hoeveel de scores in de data van elkaar verschillen
- ook wel de spreiding van de data genoemd (of het gebrek daaraan)
Nieuw data voorbeeld
- Cijfers voor Inleiding Statistiek bij eerste poging voor \(N=10\)
| A K |
5 |
| B L |
3 |
| C M |
6 |
| D N |
6 |
| E O |
7 |
| F P |
8 |
| G Q |
6 |
| H R |
9 |
| I S |
8 |
| J T |
10 |
Hoe kunnen we data variabiliteit uitdrukken?
- De makkelijkste manier: we nemen de laagste waarde en de hoogste waarde
- \(\min grade = 3\)
- \(\max grade = 10\)
\(range = \max - \min\)
Kijk ook op blz. 102 in het boek.
Een beetje meer genuanceerd
- misschien berekenen we hoeveel elke score verschilt van het (populatie) gemiddelde
- \(\mu = 6.8\)
| A K |
5 |
-1.8 |
| B L |
3 |
-3.8 |
| C M |
6 |
-0.8 |
| D N |
6 |
-0.8 |
| E O |
7 |
0.2 |
| F P |
8 |
1.2 |
| G Q |
6 |
-0.8 |
| H R |
9 |
2.2 |
| I S |
8 |
1.2 |
| J T |
10 |
3.2 |
Wat is problematisch?
Deze procedure geeft ons een afwijkingsscore (Eng. deviation) van het gemiddelde voor elke waarde
\(deviation = X - \mu\)
- Denk na over wat het gemiddelde eigenlijk is
- Het is - per definitie - het evenwichtspunt
- Kijk eens…
Afwijking en het gemiddelde

Afwijkingen opgeteld tot 0

Trucje: Squaring the difference
| A K |
5 |
-1.8 |
3.24 |
| B L |
3 |
-3.8 |
14.44 |
| C M |
6 |
-0.8 |
0.64 |
| D N |
6 |
-0.8 |
0.64 |
| E O |
7 |
0.2 |
0.04 |
| F P |
8 |
1.2 |
1.44 |
| G Q |
6 |
-0.8 |
0.64 |
| H R |
9 |
2.2 |
4.84 |
| I S |
8 |
1.2 |
1.44 |
| J T |
10 |
3.2 |
10.24 |
Het \(x^2\) trucje
- verwijdert negatieve waarden
- “straft” grotere waarden
- \(2^2 = 4\)
- \(4^2 = 16\)
- Opmerking: verschillen worden ook gekwadrateerd
- Als we \(x\) verdubbelen, kwadrateren we \(x^2\)
Van afwijking naar variantie
We kunnen nu een meer betekenisvolle maat krijgen.
Het gemiddelde van de gekwadrateerde afwijkingen noemen we de variantie (Eng. variance).
\(var = \frac{\sum{(X-\mu)^2}}{N}\)
Stepwise: afwijking (deviation)
\(\mu = 5.4\)
| A K |
5 |
-0.4 |
| B L |
3 |
-2.4 |
| C M |
6 |
0.6 |
| D N |
6 |
0.6 |
| E O |
7 |
1.6 |
Stepwise: gekwadrateerde afwijking
Squared deviation
| A K |
5 |
-0.4 |
0.16 |
| B L |
3 |
-2.4 |
5.76 |
| C M |
6 |
0.6 |
0.36 |
| D N |
6 |
0.6 |
0.36 |
| E O |
7 |
1.6 |
2.56 |
\(var = \frac{\sum{(X-\mu)^2}}{N} = \frac{9.2}{5} = 1.84\)
Stepwise: de standaard afwijking
Engels: standard deviation
- een van de meest gebruikte statistieken voor variabiliteit
- standaard in de meeste onderzoekspapers
\(SD = \sqrt{var}\)
\(\sigma = \sqrt{\frac{\sum{(X-\mu)^2}}{N}}\)
Hier: \(\sigma = \sqrt{\frac{9.2}{5}} = \sqrt{1.84} = 1.36\)
Sum of squares
- een alternatieve benadering is om eerst de som van de gekwadrateerde afwijkingen (SS) te berekenen
\(SS = \sum{(X-\mu)^2}\)
Dan:
\(var = \frac{SS}{N}\)
\(\sigma = \sqrt{\frac{SS}{N}}\)
Daarom wordt \(var\) ook genoteerd als \(sigma^2\).
Denk terug aan populaties en steekproeven?
Tot hier: de variabiliteitsstatistieken waren voor de populatie
De steekproef is biased (d.w.z. we over- of onderschatten de populatie-waarde):
- hier betekent dit dat het de variabiliteit van de populatie onderschat
- wij kunnen hiervoor corrigeren
- dit is waar we de som van kwadraten nodig hebben
Bias corrigeren
We maken de waarde iets groter, door de noemer te verkleinen:
\(sample\ variance = \frac{SS}{n-1}\)
\(s = \sqrt{\frac{SS}{n-1}}\)
Vergelijk:
- \(\frac{SS}{N} = \frac{9.2}{5} = 1.84\) vs \(\frac{SS}{n-1} = \frac{9.2}{4} = 2.30\)
- \(\sqrt{\frac{9.2}{5}} = 1.36\) vs \(\sqrt{\frac{9.2}{4}} = 1.52\)
Voorbeeld in onderzoekspapers
show that the judgments are closer to the true emotion score in the longer texts (M=1.19, SD=1.88) than in the shorter ones (M=2.00, SD=2.35), Cohen’s d = 0.38 [99% CI: 0.30; 0.45]
Recap
- we kunnen de centrale waarde van de data beschrijven
- we kunnen ook beschrijven hoe ver de gegevens uit elkaar liggen
- range
- afwijking –> variantie –> standaardafwijking
- Corrigeren voor steekproefvertekening in steekproefstatistieken
Volgende week
- waarschijnlijkheid
- z-scores